第 1 课:基础原理
强化学习(Reinforcement Learning, RL) 是一种机器学习方法,学习智能体(agent)如何通过与环境(environment)交互,以最大化累计奖励(cumulative reward)为目标做出动作决策。
强化学习的核心:“在试错中学习一个策略,使得长期获得的奖励最大。”
与其他学习方法的区别:
| 类型 | 输入数据形式 | 学习目标 | 例子 |
|---|---|---|---|
| 监督学习 | 输入 + 正确输出标签 | 拟合已知标签的预测函数 | 图像识别、房价预测 |
| 无监督学习 | 输入(无标签) | 挖掘数据的潜在结构 | 聚类、降维 |
| 强化学习 | 状态、动作、奖励反馈 | 学习策略以最大化长期奖励 | 游戏玩耍、机器人控制 |
强化学习不是直接“知道”对错,而是通过试错,从奖励中自己摸索出最优策略。
(一)马尔可夫决策过程(MDP)
强化学习问题通常建模为一个 马尔可夫决策过程(Markov Decision Process),表示环境的动态特性。
1. MDP 的定义:
一个五元组:
| 符号 | 含义 |
|---|---|
| 状态空间(可能的环境状态集合) | |
| 动作空间(agent 可执行的动作集合) | |
| 策略函数(定义 agent 在每个状态下选择什么动作的决策函数。) | |
| 奖励函数(从 ( s ) 执行动作 ( a ) 转移到 ( s' ) 得到的奖励) | |
| 折扣因子(discount factor),衡量未来奖励的重要性 |
2. 马尔可夫性质:
意思是:未来只依赖当前状态与动作,与过去无关。
3️⃣ 强化学习核心概念
✅ 状态(State):
环境的某种描述,例如:在游戏中角色的位置、速度等。
✅ 动作(Action):
Agent 可以选择的行为,例如:向左走、跳跃、攻击。
✅ 奖励(Reward):
环境反馈给 agent 的一个数值,用于评估该动作好坏。例如吃到金币 +1,被怪打 -10。
✅ 策略(Policy):
定义 agent 在每个状态下选择什么动作的决策函数。
- 符号:(\pi(a|s)) = 在状态 (s) 下选择动作 (a) 的概率
- 可分为:
- 确定性策略:( \pi(s) = a )
- 随机策略:( \pi(a|s) \in [0,1] )